介绍
预训练语言模型(PLMs)已成为NLP任务的标配,这得益于其在预训练阶段学到的大量的知识。近年,有许多工作通过提示(prompt)提取预训练模型中的事实知识,Petroni等人首次提出了PLMs事实知识提取基准,LAMA,并对41个事实关系设计了手工提示(handcrafted prompts),例如,对于事实知识三元组< Douglas Adams, native language, English>来说,其中 “Douglas Adams”为subject,“native language”为relation, “English” 为object,将提示 “The native language of Douglas Adams is [MASK]” 输入到预训练语言模型中,通过对 [MASK] 位置掩码预测得到最终的答案 “English”,即为 “Douglas Adams” 的母语。为了进一步提升事实知识提取准确率,基于自动优化的提示调优方法(prompt tuning-based)被设计出来,例如:AutoPrompt,P-tuning, Prefix-tuning等.

尽管以上基于提示调优的方法取得了不错的效果,但是我们发现这些方法有严重的对象偏见(object bias)现象。 具体来说,当prompt中的subject被掩盖时,模型对于不同候选object有明显的偏向性。如图所示,我们先构建了不同种知识提取方法的subject-masked prompt 。 在图(b) 中展示了基于subject-masked prompt得到的object候选的logits值的降序排序回归线,可以发现四种事实知识提取方法存在不同程度的对象偏见,其中三种prompt tuning-based 方法体现出的对象偏见现象更严重。我们进一步分析发现了对象偏见会影响事实知识提取的准确性,所以我们提出了一个基于最大化熵和对比学习的方法, MeCod(Maximum entropy and Contrastive learning for object Debiasing),在减轻对象偏见的同时提升事实知识提取的准确率。